【NLP论文分享&&中文命名实体识别】如何构建一个优秀的Gazetteer/地名词典(浙大&含源码)
引言
「在中文命名实体识别(NER)中,地名词典被广泛用于增强跨边界检测和类型分类中」,那么在设计模型的时候如何构建地名词典使我们模型效果更好呢?基于这个问题,本片文章给出了指导性意见。
背景介绍
背景介绍方面,主要简单介绍了地名词典增强NER的过程(主要包括四个阶段)、现有地名增强NER的评估方法以及目前评估方法的局限性。
地名增强NER过程
Gazetteer(地名词典),又称实体词典,在各种文献中都提到了它对汉语NER的重要性,如解决汉语NER中的错误传播,将丰富的外部知识集成到NER中。以往的研究证明,与传统的NER模型相比,地名词典增强NER模型可以从地名词典知识中获取外部边界和类型信息,从而提高性能。地名增强NER的典型过程包括四个阶段:
(1)从知识库中收集单词条目,构建地名词典。单词条目可以是命名实体或任意短语。 (2)对目标句进行条目匹配。 (3)用各种编码器编码句子和地名知识。 (4)通过解码上下文感知表示提取实体。
现有地名词典增强NER评估
虽然近年来已经提出了一些地名增强的NER模型,但仍有几个关键问题需要回答。首先,开发了一些度量方法来分析现有NER模型的泛化能力。然而,社区内仍然缺乏详细和统一的评估来检查地名词典增强NER模型的性能,以及地名词典、数据集和模型之间的关系,而现在严重依赖于一个整体度量(F1分数)。其次,社区发展太快,缺乏一个全面和系统的实证研究,以回顾过去几年有前途的工作和反思利弊。
需要解决的问题
为了解决上述问题,在本工作中,问题设计了几个实验,致力于回答以下三个问题:
Q1:地名词典对NER模型只有正面影响,还是也有负面影响? Q2:地名词典能否在预训练语言模型的基础上提高NER模型的性能? Q3:哪种类型的地名词典是提高性能的最佳地名词典?
问题解决
首先对于Q1,本文复现了三个有名的模型,并对五个数据集和三个地名词典进行了一些实验。尽管几乎所有的研究工作都忽略了地名词典对大规模预训练语言模型增强后的模型是否仍有帮助。
然后对于Q2,本文将原有的静态嵌入修改为预训练语言模型,并对这些新模型进行了一些新的实验。此外,目前的研究工作并没有探讨模型性能与词典特征之间的关系,如词典大小、预训练的词位嵌入和词位类型。
最后对于Q3,本文设计了实验来研究这些关系,可以提供可解释的结果,更好地理解实体提取背后的因果关系,并指导我们构建更适合的gazetteer。
实验及结论
实验验证
实验结果选择GENER模型,并且选择5种中文数据集(WeiboNER, ResumeNER, MSRANER, OntoNotes, and ECommerce)和三种地名词典(Gigaword, SGNS, and TEC)。
1、如下图所示,在大多数情况下,地名词典是有用的。然而,不恰当的地名编纂者也会带来负面影响。
实验结论
(1)地名词典改善了传统NER模型数据集难以学习的大部分情况。 (2)模型的性能极大地受益于高质量的预训练词位嵌入。 (3)一个好的地名词典应该涵盖更多可以在训练集和测试集中匹配的实体。 应该考虑更多匹配的词位,既涵盖训练集又涵盖测试集。 编目实体越多,模型的性能提升越大。
推荐阅读
[1]必看!!【AINLPer】自然语言处理(NLP)领域知识&&资料大分享
[2]【NLP论文分享&&源码】多修辞文本生成(nFLAG)
论文&&源码
Title: Rethinking the Value of Gazetteer in Chinese Named Entity Recognition
Author: 浙江大学
Paper:https://arxiv.org/pdf/2207.02802v2.pdf
Code:https://github.com/knowledgeresearch/kaner